查看原文
其他

高性能数据中心存储:基于DPU的解决方案(演讲)

常华Andy Andy730
2025-01-01

主要内容

问题与挑战
  • 数据规模不断增长: AI模型,特别是LLM,其训练数据集和模型参数正在快速增长,这给存储系统带来了巨大的压力。
  • 混合工作负载: LLM数据管道包含混合的顺序、随机、大型和小型IO,这给传统的存储系统带来了挑战。
  • 对性能的需求: GPU集群需要高带宽和低延迟的数据访问,才能充分发挥其计算能力。
  • 高功耗: GPU和CPU的功耗不断增加,但数据中心的电力和冷却预算有限。

解决方案
为了应对这些挑战,Supermicro和NVIDIA合作开发了一种基于DPU的高性能数据中心存储解决方案,该方案将NVIDIA BlueField DPU集成到Supermicro的Gen5 NVMe JBOF中。
该解决方案的核心是NVIDIA BlueField DPU,它是一款专为数据中心设计的处理器,具有以下特点:
  • 强大的计算能力: BlueField DPU配备多核ARM CPU,能够处理复杂的计算任务。
  • 丰富的硬件加速单元: BlueField DPU集成了多种硬件加速单元,可以卸载CPU密集型和延迟敏感型任务,例如NVMe over Fabrics转换。
  • 高速网络接口: BlueField DPU支持PCIe Gen 5和高速以太网或InfiniBand网络,提供高带宽和低延迟的数据传输。
Supermicro Gen5 NVMe JBOF是一款高性能、高密度的存储服务器,具有以下特点:
  • 支持多种NVMe SSD: 该JBOF支持U.2和E3.S两种尺寸的NVMe SSD,以及单端口和双端口NVMe SSD。
  • 灵活的配置: 该JBOF支持多种配置,可以根据不同的需求进行定制。
  • 高性能: 该JBOF支持PCIe Gen 5和高速网络,提供高带宽和低延迟的数据访问。
通过将BlueField DPU集成到Gen5 NVMe JBOF中,该解决方案实现了以下优势:
  • 更高的性能: BlueField DPU的硬件加速单元可以卸载CPU密集型任务,例如NVMe over Fabrics转换,从而提高整体性能。
  • 更低的延迟: BlueField DPU的高速网络接口和硬件加速单元可以缩短数据传输路径,从而降低延迟。
  • 更低的功耗: BlueField DPU可以取代传统的x86 CPU和网络适配器,从而降低整体功耗。

规格与指标
  • 容量: 该解决方案支持高达1.44PB的存储容量(2U24 U.2 JBOF),未来可达2PB以上。
  • 性能: 该解决方案可以达到50 GB/s的总吞吐量,4KB随机读取延迟比传统x86架构低13%。
  • 功耗: 该解决方案比传统x86架构节省高达50%的功耗。

未来趋势
  • 更高的存储密度: 随着E3.S SSD容量的不断提升,该解决方案的存储密度将会进一步提高。
  • 更广泛的应用: 该解决方案可以应用于各种高性能工作负载,包括AI训练、推理、高性能计算等。
  • 更强大的生态系统: Supermicro和NVIDIA正在积极构建该解决方案的生态系统,吸引更多的软件和硬件合作伙伴加入。

----------

Rob Davis(存储技术副总裁)- NVIDIA

我非常高兴向大家介绍由Supermicro和NVIDIA共同开发的一款新产品。这款产品基于NVIDIA的BlueField DPU,这是一个基于ARM CPU的系统。通过与Supermicro的紧密合作,我们在存储和AI卸载(offload)工作负载方面实现了超越传统x86系统的性能。

大家是否都曾有过照顾十几岁男孩的经历?他们总是精力充沛、胃口极佳。GPU也是如此,对数据的需求可谓“胃口”惊人。不同之处在于,GPU“进食”的不是食物,而是数据。从左侧图表可以看出,CPU处理的数据集通常以GB为单位,而GPU则需要以TB甚至PB为单位的数据进行训练。造成这种差异的原因在于,GPU拥有远超CPU的并行计算能力。类比一下,为一个家庭准备餐食和为一场大型聚会准备食物,所需的食材数量显然不在一个数量级。

AI存储工作负载的另一个挑战在于I/O瓶颈。传统上,CPU应用程序连接到10Gbps或25Gbps的网络。对于规模较小的数据集,数据加载时间与CPU计算时间较为匹配。但对于GPU来说,即使是25Gbps的网络,在处理大规模数据集时,I/O操作仍然会成为性能瓶颈。GPU往往需要等待存储系统提供更多数据,导致计算资源的闲置。

为了解决这一问题,我们推出了性能更强大的解决方案,配备了8个200Gbps端口,总带宽高达1600Gbps。

AI工作负载的复杂度正在不断攀升。从左侧图表可以看出,过去五年间,AI模型中的参数数量呈现指数级增长,如今已突破万亿大关。这种趋势短期内不会改变。

不仅训练阶段对计算资源的需求巨大,推理阶段同样如此。检索增强生成(RAG)就是一个典型的例子。RAG通过在大型语言模型中引入外部知识库,使其能够执行事实校验和访问控制。然而,知识库中的信息更新速度往往较快,例如产品信息、价格变动等。为了保证模型输出的时效性,RAG通常会采用向量数据库来存储和检索信息。此外,推理过程对延迟非常敏感,尤其是在人机交互或分布式训练场景中。低延迟是提升用户体验和系统效率的关键。

接下来,我们重点关注BlueField DPU在JBOF架构中的应用。虽然BlueField的应用范围很广,可以覆盖存储数据路径的各个环节,但由于时间有限,我们今天主要讨论其在最右侧,即靠近存储层的部署方式。

NVIDIA BlueField DPU是一款典型的DPU产品。如图所示,BlueField配备了16核A78 ARM CPU、多个硬件加速单元、PCIe Gen 5交换机以及两个400Gbps的以太网或InfiniBand端口。其中,硬件加速单元专门用于处理那些计算密集且对延迟敏感的任务。InfiniBand是一种在高性能计算领域广泛应用的高速互连技术,如今也常用于AI网络。BlueField的SDK提供了一套类似于GPU CUDA的编程框架,这使得开发者可以轻松地为DPU编写高效的应用程序,并确保代码的长期兼容性。

通过对比左右两侧的图表,我们可以更直观地了解基于x86和DPU的解决方案之间的差异。左侧的x86方案架构相对复杂,而右侧的DPU方案则显得更加简洁。这种简洁的设计使得DPU能够显著降低功耗。更令人惊讶的是,DPU方案在性能方面甚至超越了x86方案。

虽然DPU的计算能力相对较弱,但其内部集成了许多针对特定任务优化的硬件加速单元。对于JBOF等存储设备,DPU提供了高效的NVMe over Fabrics卸载功能。这一功能完全由硬件实现,ARM处理器仅在处理异常情况或加载映射表时才会介入。

相比之下,x86处理器作为通用处理器,虽然功能强大,但将其用于NVMe over Fabrics的转换则显得有些“大材小用”。DPU的专用设计使得其在处理这类任务时具有更高的效率。

从图表数据可以看出,x86方案的CPU利用率接近50%,而DPU方案中ARM处理器的利用率则非常低。这表明DPU在执行卸载任务时,CPU资源得到了充分释放。因此,DPU平台可以集成更多的功能,例如GPU。通过将GPU集成到存储平台,我们可以直接在存储层上运行部分AI工作负载,从而显著提升像RAG这样的应用的性能。

Patrick Chiu(产品管理高级总监 - 云和企业存储系统)- Supermicro

在Supermicro看来,大规模AI数据中心主要面临以下四大挑战:
  1. 数据规模爆炸式增长:模型参数和数据集规模不断扩大。
  2. 工作负载多样性:AI数据处理涉及顺序读写、随机读写等多种I/O模式,对存储系统提出了更高的要求。
  3. 高性能需求:GPU需要持续的数据流来维持高效计算,任何延迟都可能导致性能下降。
  4. 能耗控制:随着计算能力的不断提升,数据中心的能耗问题也日益严峻。

今天,我们非常高兴地宣布,与NVIDIA合作推出了这款高度灵活的PCIe Gen 5 JBOF解决方案。该解决方案支持多种配置:最多可容纳36个E3.S SSD或24个U.2 SSD,并兼容单/双NVMe控制器以及Gen 5 NVMe。

右侧的示意图展示了系统的详细配置。每个单元(canister)最多可配备两个BlueField-3 DPU和一个GPU。GPU的型号可以是单宽的L4,也可以是双宽的L4。此外,该系统支持双单元配置,以实现高可用性或扩展容量。

我们通过内部测试数据来对比传统JBOF架构和基于BlueField-3 DPU的新架构的性能。

在传统架构中,一个x86服务器作为启动端,另一个x86系统作为JBOF目标端,两者之间通过ConnectX-7互联。而在我们的新方案中,将x86 JBOF替换为基于BlueField-3 DPU的JBOF。

测试结果显示,两种架构的峰值吞吐量均为400 GB/s。然而,在延迟方面,BlueField-3方案表现出明显的优势,降低了10-15%。这是因为BlueField架构中的数据可以直接通过PLX交换机访问SSD,而传统架构中的数据需要经过CPU、DRAM等多个环节,增加了数据传输的路径长度。

此外,在功耗方面,BlueField方案也具有显著优势。传统方案的CPU和DRAM功耗较高,而BlueField方案仅包含DPU和PLX交换机,功耗大幅降低。相比之下,BlueField方案的总功耗不到传统方案的一半。

通过将NVIDIA BlueField DPU集成到这款全新的PCIe Gen 5 JBOF解决方案中,我们实现了以下几个关键优势:

  • 超大存储容量:该系统最多可支持24个U.2驱动器,以E3.S格式配置时,总存储容量可轻松突破1PB。随着存储介质技术的不断发展,未来单个E3.S驱动器的容量有望达到60TB,这意味着在2U空间内,我们能够实现超过2PB的存储。此外,系统还支持多种存储介质类型,包括单端口或双端口驱动器、U.2或EDSFF外形尺寸、TLC或QLC NAND,能够灵活满足不同应用场景的需求。
  • 卓越的性能:我们的性能测试结果表明,该系统能够轻松处理400GB/s的带宽。为了满足更高性能的需求,我们可以在每个单元中增加两个BlueField DPU,从而在2U系统内配置最多四个DPU。此外,通过集成GPU,我们可以在本地进行索引或搜索操作,进一步提升系统性能。
  • 显著降低功耗:相比传统的x86架构,我们的解决方案能够节省近200瓦的功耗。对于大型数据中心而言,这种功耗节省将带来巨大的经济效益。

这是一款全新的、极具创新性的解决方案。我们诚挚地邀请更多的生态系统合作伙伴,包括软件和硬件厂商,共同参与到这一生态系统中来。通过合作,我们可以共同推动基于BlueField DPU的JBOF解决方案的广泛应用,为AI和大数据领域带来更多的可能性。

----------

参考资料:High Performance Data Center Storage using DPUs. (2024, October 23). Retrieved from https://www.youtube.com/watch?v=A1iYDID9xp8


---【本文完】---

近期受欢迎的文章:

  1. 深度解析DPU:技术革新与市场展望
  2. Intel IPU E2100 DPU 正式发布
  3. 打造基于DPU加速的PB级存储解决方案
  4. 我的发言:AI时代的DPU应用趋势
  5. 利用DPU加速HPC和AI:策略与获益



更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存